#optimización por activación

SAEExplainer: Interpretación SAE con optimización por activación

SAEExplainer optimiza la interpretación de características SAE usando preferencias guiadas por activación, reduciendo alucinaciones y mejorando causalidad.

2026-06-09 · 1 min